Java面向数据库编程——数据库设计
为什么需要规范的数据库设计通过进行规范化的数据库设计,可以消除不必要的数据冗余,获得合理的数据库设计,提高项目的应用性能。什么是数据库设计就是将数据库中的数据实体及这些数据实体之间的关系,进行规划和结构化的过程。数据库中创建的数据结构的种类,以及在数据实体之间建立的复杂关系是决定数据库系统效率的重要
Scala的安装与配置
Scala安装配置及介绍一、为什么要学Scala1. Scala介绍Scala基于JVM,和Java完全兼容,同样具有跨平台、可移植性性好、方便的垃圾回收等特性是一门函数式编程语言Scala更适合大数据的处理Scala对集合类型数据处理有非常好的支持spark的底层用Scala编写2. Scala特
HBase Windows 安装
在安装HBase之前,我们需要先安装JDK和Hadoop,具体JDK和Hadoop的安装我前面已经做过了,需要的话,请看我的另一篇博客:Hadoop Windows 安装 还是那句话,在安装HBase之前,我们需要搞清楚HBase、Hadoop和Java之间版本的对应关系:我们具体可以看Apache
ES聚合用法
ES中的聚合查询,类似SQL的SUM/AVG/COUNT/GROUP BY分组查询,主要用于统计分析场景。下面先介绍ES聚合查询的核心流程和核心概念。ES聚合查询类似SQL的GROUP by,一般统计分析主要分为两个步骤:对查询的数据首先进行一轮分组,可以设置分组条件,例如:新生入学,把所有的学生按
Doris系列1-Doris介绍
文章目录一. Doris简介二. Doris 整体架构2.1 Doris 整体架构简介2.2 Doris 数据分布2.3 Doris 的使用方式三. Doris关键技术3.1 数据可靠性3.2 易运维3.3 MySQL 兼容性3.4 支持 MPP四. Doris 数据模型4.1 Doris 数据模型
【数据可视化】三款主流开源数据可视化工具对比:Superset、DataEase、MetaBase
现在市场上开源 BI 产品比较多,各个产品的侧重点不同,有的以报表为主、有的以可视化为主、有的以查询分析为主。这里我们选取了一些主流的开源 BI 产品,从产品功能、可视化能力、数据源支持以及使用文档等方面进行对比,希望对你有帮助。由Airbnb贡献的轻量级BI产品,目前在GitHub上有3万多颗星,
【ETL】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼
对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL
大数据技术之——zookeeper的安装部署
Zookeeper是一个`开源的分布式的`,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解,`是一个基于观察者模式设计的分布式服务管理框架`,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Z
SkyWalking+es部署与使用
第一步下载skywalking :http://skywalking.apache.org/downloads/第二步下载es:https://www.elastic.co/cn/downloads/elasticsearch注:skywalking 和es要版本对应,可从下面连接查看版本对应关系,
hadoop的HDFS的shell命令大全(一篇文章就够了)
HDFS的shell命令1、安全模式安全模式:集群启动时,DN所有的DN都必须向MM汇报磁盘使用状态和block存储信息。在此之前出于对hdfs的保护,会禁止访问hdfs,此状态为安全模式1.查看安全模式状态#查看安全模式状态hdfs dfsasmin --safemode get#-状态-on|o
Python项目(Django):国内新冠肺炎疫情大数据可视化平台
首先通过python编写的SaveMysqlData.py脚本将关于新冠肺炎疫情的数据从腾讯新闻或者百度新闻的实时疫情动态中直接爬取下来存储入MySQL数据库中,然后运行Django项目进入到登录界面,输入正确的登录账号和密码过后通过Echarts进行绘制图表来进行大屏显示。......
Kettle(Pentaho)用法:job作业中并行作业项执行完后执行下一作业项
本文基于Pentaho的kettle模块实现ETL功能,在spoon中实现创建、定义作业,记录作业job的两种处理并行作业项的方法。
使用devstack安装部署OpenStack(据详细手把手教学)
一、环境(1)操作系统:Linux。OpenStack官网推荐使用 Ubuntu-20.04 LTS进行安装OpenStack,所以本教程也以此版本为例。(不推荐使用其他版本,出现错误较多,容易安装失败)(2)虚拟机软件:VirtualBox或者Vmware。虚拟机的内存最好分配 8G 以上(至少4
【用户画像】将数据迁移到ClickHouse(源码实现)、位图的介绍(bitmap)、位图在用户分群中的应用、位图的使用
函数arrayJoin宽表转Bitmap表需要行转列,要用arrayJoin把多列数组炸成行。把聚合列的数字值聚合成Bitmap的聚合函数bitmapAnd求两个Bitmap值的交集bitmapOr求两个Bitmap值的并集bitmapXor求两个Bitmap值的差集(异或)把Bitmap转换成数值
flink checkpoint配置详解
如果都设置了,则代码中会覆盖flink-conf.yaml中的配置代码中设置StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 开启checkpoint 每5
超详细的基于docker搭建hadoop集群
基于Docker搭建Hadoop集群
HDFS的读写流程步骤(附图文解析)
HDFS的写入流程与读取流程,附图文步骤解析
数仓理论及建模方法
1. 数仓概述数据仓库: 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合。重要用于组织积累的历史数据,并且使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策,为管理者、企业系统提供数据支持,构建商业智能。面向主题:为数据分析提供服务,根据主题将原始数据集合在一起。集成的:
Flink on Yarn模式部署
独立(Standalone)模式由 Flink 自身提供资源,无需其他框架,这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但我们知道,Flink 是大数据计算框架,不是资源调度框架,这并不是它的强项;所以还是应该让专业的框架做专业的事,和其他资源调度框架集成更靠谱。而在目前大数据生态中,
Superset 安装配置
官网地址Apache Superset 是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。Superset快速,轻巧,直观,并带有各种选项,使各种技能的用户都可以轻松浏览和可视化其数据,从简单的折线图